num_gpus=1
num_nodes=4
job_id=2023
HOST_NODE_ADDR="localhost:0"
torchrun --nnodes=$num_nodes --nproc_per_node=$num_gpus \
           --rdzv_id=$job_id --rdzv_backend="c10d" --rdzv_endpoint=$HOST_NODE_ADDR \
    ./train.py